[レポート]オルタナティブデータビジネスのためのデータ基盤にSnowflakeを選んだ理由 #SnowdayJapan
この記事は、2023年2月14日開催のSNOWDAY JAPANのセッション「オルタナティブデータビジネスのためのデータ基盤にSnowflakeを選んだ理由」に関するセッションレポートです。
セッション概要
昨年より社内で発足したデータ分析基盤プロジェクトにおいて、データウェアハウスとしてSnowflakeを採用しました。 本公演では、オルタナティブデータビジネスとSnowflakeの相性がなぜ良いのか、zero copy clone/snowpark/data sharingなどの技術がデータの開発にどう活かされているか、などの観点から選定理由について説明させていただきます。
スピーカー
- 株式会社ナウキャスト 辻中 仁士 氏
- 株式会社ナウキャスト 隅田 敦 氏
前半はナウキャスト代表取締役CEOの辻中氏がナウキャストの「オルタナデータビジネス」について、後半は同社データエンジニア/データサイエンティストの隅田氏がSnowflakeをデータ基盤として採用したポイントについてお話しされました。
Part1: オルタナデータビジネスとは
自己紹介
- ナウキャストはPOSデータやクレジットカードデータ、ニュース媒体情報など様々なデータを収集・加工し、サブスクリプション契約をした顧客にレポートやデータをワンストップで提供している
- この分野においては、日本におけるリーディングカンパニーだと自負している
- 2015年に創業し、現在は主軸事業の収益安定化をバックグラウンドに事業拡張、新規事業の創出を進めている
オルタナデータビジネスとは
- オルタナティブデータ = POSデータやクレジットカードデータなど今まで利活用の進んでいなかったデータ
- 主なオルタナティブデータの例
- 消費者購買データ(POSデータ、クレジットカードデータ)
- 位置情報データ
- 衛星画像データ
- ナウキャストでは、これらに加えてSNS、携帯位置情報、Webトラフィック、新聞記事データなどにもフォーカスを当ててデータを提供している
- コロナ禍でさまざまな状況に対して迅速な対応が必要になり、高頻度データの重要性が人気されるようになった結果、オルタナティブデータ利活用への期待が高まっている
- ナウキャストでは、総務省や経産省などが提供する公的統計と比較して、圧倒的な速さでデータ提供することで、タイムリーなデータ需要に答えている
クレジットカードデータの処理事例
- 2017年から提供している消費動向サービス「JCB消費NOW」ではクレジットカードの決済情報を匿名加工した情報を活用している
- 重要なのはデータを理解することと泥臭いデータクレンジング
- EDA(Exploratory Data Analysis/探索的データ解析)
- データの分布をみる(各特徴量について知る)
- 欠損値を確認する
- 外れ値を確認する
- など
Part2: Snowflakeをデータ基盤に選んだ理由
ここからデータエンジニア/データサイエンティストの隅田氏(@yummydum)にバトンタッチ
DataOpsのためのSnowflake
- データのマスタリングはオルタナティブデータビジネスの肝
- 完全自動化は無理筋
- 加盟店名称のテキスト表記ゆれが厄介
- テキストに含まれていない情報も多いので機械的にアノテーションするのも難しい
- ChatGPTも試したけどまだ難しかった
- 高品質/高効率な字とでアノテーション整備の仕組みが必要!
- 「検証にZero Copy Cloneがマジで使える」
- Snowflakeの Zero Copy Clone を使えばアノテーションの品質保証サイクルを効率よく行える
参考情報:
- 検証したデータに問題がなければ、Swap(ALTER TABLE SWAP)で検証環境を瞬時に本番環境に切り替えできる
参考情報:
コラボレーションのためのSnowflake
- データ共有のジレンマ
- 様々なシステムや組織で同じデータを使いたい
- ワークロードの干渉は防ぎたい(お財布も分けたい)
- 転送ジョブの開発/保守はコストが掛かり過ぎる
- 「ウェアハウスやデータシェアリングがスゲー」
- 転送ジョブ不要でワークロードを分離できるSnowflakeの機能
- ウェアハウス
- ワークロードごとにウェアハウスを用意できる
- 要求パフォーマンスや用途に合わせてウェアハウズのサイズ(スループット)を指定でき、変更も容易
- データシェアリング
- 他のSnowflakeユーザに対してデータをセキュアに共有可能な仕組み
- クエリ実行や計算処理にデータ利用者側のウェアハウスを利用することで、適正なコスト配分ができる
- 特に海外顧客からの要望が多かった
- マーケットプレイス
- 社会全体には自然発生したデータが複数あり、中には重複するデータも存在している
- マーケットプレイスを活用することで社会から重複データをなくすことができると考えている
- 例として、Truestar社のPrepper Open Data Bank(POD)が挙げられる
- マーケットプレイスはソフトウェアにおけるライブラリの位置付けになると考えている
PythonのためのSnowflake
- データ分析にPythonは欠かせない
- SQLは関係代数で自然と表現できるロジックには最高のツール
- 一方で関係代数が適さないロジックもたくさんある
- SnowflakeならPython udf、SnowparkなどPythonとの組み合わせを実装しやすい
Streamlitによるシームレスな可視化(今後)
- EDAからシームレスにダッシュボード開発へ移行
- 分析から可視化までPythonで完結することの喜び
- ダッシュボードはコンソール上で楽々デプロイ&共有
以上、ナウキャスト社の「オルタナティブデータビジネスのためのデータ基盤にSnowflakeを選んだ理由」に関するセッションレポートでした。